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Be s chr e ibung 

« 

Verfahren zum Erzeugen und/oder Aktualisieren von Lern- 
und/oder Teststichproben 

5 

Die Erf indung betrifft ein Verfahren zum Erzeugen und/oder 
Aktualisieren von Lern- und/oder Teststichproben fur die Op- 
timierung von automat ischen Lesern fur Sendungsauf schrif ten 
mit adapt iven Klassif ikatoren. 

10 

•Fur den Prozess der postalischen Automatisierung spielt neben 
der eigentlichen Sortiermaschine das Lesen der Adressen eine 
zentrale Rolle. Erst wenn die postalische Adresse einer Sen- 
dung ermittelt worden ist, kann diese Postsendung in einer 
15 Sortiermaschine in das richtige Fach sortiert werden. 

Der Verarbeitungsprozess zum Lesen einer Adresse besteht aus 
einer Reihe von adaptiven Verarbeitungsschritten, die in 
Bildaufnahme, Lokalisieren des Adressblocks, Segment ierung 
2 0 des Adressblocks in Zeilen und Worter, Zeichen- und/oder 

Worterkennung und abschliefiender Abgleich mit einer Adressda- 
tenbank auf gegliedert werden kann. 

^^^P Wenn die Adressinf ormation nicht automatisch vom Lesesystem 
^^25 ermittelt worden ist, oder nur Telle der notwendigen Informa- 
tionen gelesen werden, wird diese Sendung zu einem manuellen 
Bearbeitungsplatz gesendet (Videokodieren) . Hier wird der 
Oder die fehlenden Adresseintrage durch Videokodierkraf te ma- 
nuell eingegeben. 

30 

Das Ziel eines jeden Adresslesesystems ist es deshalb, sehr 
hohe Leserate zu erreichen, um den manuellen Auf wand beim Vi- 
deokodieren moglichst klein zu halten. Um diese hohe automa- 
tisierte Leserate zu erreichen, ist zum Adaptieren an die zu 
35 lesenden Sendungsauf schrif ten eine Menge von Domanenwissen 
fur jeden einzelnen Verarbeitungsschritt notwendig. 
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Ein groSer Anteil der in einem Adressleser auf tretenden Ver- 
arbeitungsschritte wie z.B. Zeichen-, Wort-, und Schriftart- 
Erkermung basiert auf adaptiven Klassif ikationsverf ahren. Das 
alien adaptiven Verf ahren gemeinsame Grvmdprinzip ist das 
5 Lernen von zuvor gesammelten Mustern, deren Eigenschaf ten in 
quant if izierbare Merkmals- oder Featuresatze abgebildet war- 
den. Diese erlauben im weiteren Verlauf Riickschlusse auf die 
Klassenzugehorigkeit . Deshalb kommt es bei adaptiven Verf ah- 
ren grundsatzlich zu zwei Arbeitsphasen: 

0 

a) der Optimierungsphase/ bestehend vorzugsweise aus 
Lern- und Testphase, 

b) der Kannphase. 

5 Wahrend der Optimierungsphase muss zu jedem Merkmalssatz ei- 
nes Musters, das je nach Aufgabe z.B. einem Zeichen, einem 
Wort Oder einer Adresse besteht, seine Bedeutung in Form der 
Sollinf ormation hinzugefugt warden, damit die Bestimmungsgro- 
Sen des Klassif ikationssystems optimal eingastellt werdan 
0 konnen. Diese Phase, in der sich das System auf die optimale 
Parameter-Einstellung hinbewegt, lauft vorzugsweise in zwei 
Stufen ab, wobei in der Lernphase die Grundeinstellung der 
Parameter vorgenommen wird, wahrend in der Testphase eine 
Feinjustierung der Parameter erf olgt . In der Kannphase wird 
5 dann nur noch der Merkmalssatz eines Musters benotigt, aus 
dem das Klassif ikationssystem nach MaSgabe der abgespeicher- 
ten Parameter die Klassenzugehorigkeit ableitet . 

Der groiSte entwicklungstechnische Auf wand zur Realisiemang 
0 eines Klassif ikationssystems steckt in der Lern- und Testpha- 
se, die jeweils wiederum in zwei Hauptaktivitaten aufgeteilt 
werden kann. Zunachst einmal muss eine Stichprobe prapariert 
werden, die die Erkennungs aufgabe hinreichend gut reprasen- 
tiert. Dann erf olgt die eigentliche Adaption des Klassif ika- 
5 tionssystems , die sich je nach Klassif ikationsmethode und 
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Klassif ikatordesign auf die Optimierung der zu Grunde liegen- 
den Bestimmungsgrofien wie z.B. Optimieriing der Klassif ikator- 
koef f izienten beim Polynomklassif ikator , Optimierung der Ge- 
wichtsf aktoren beim Neuronalen Netz oder der Auswahl der ef- 
5 fizientesten Ref erenzvektoren beim Nachstnachbar- 
Klassif ikator konzentriert . 

Wahrend der zweite Aspekt der Lern- und Testphase weitgehend 
automatisiert ablaufen kann, da ihm im allgemeinen wohl defi- 
10 nierte mathematische Methoden und Optimierungsverf ahren 
^ zugrtmde liegen, verbirgt sich hinter dem ersten Aspekt ein 
hoher Auf wand an Planiings-, Recherchier- und Kontrollarbeit , 
die nicht selten zum eigentlichen Flaschenhals der adaptiven 
Losungsmethodik wird. 

15 

Zur Zusaramenstellung der Stichproben werden nach dem Stand 
der Technik vor Ort groSe Mengen von Sendungen (Life-Mail) 
gesammelt und durch das sogenannte Labeln mit der Sollinfor- 
mation (Bedeutung der Auf schrif ten. Layout -Angaben) manuell 

20 versehen. Es muss also von einem Bild auf die ursprungliche, 
verloren gegangene Sollinf ormation/Bedeutung ruckgeschlossen 
werden, (Jurgen Schurmann: Pattern Classification, Verlag: 

^ John Wiley&Sons, Inc., 1995, Chapter „ Introduction Learn- 

W' ±ng'\ pp. 17 - 21) 

25 

Der Vorgang der Zusammenstellung der Stichprobe ist aus ver- 
schiedensten Grunden von entscheidender Bedeutung fur das au- 
tomatische Erkennen, da sich ihre Qualitat unmittelbar in der 
Leistungsf ahigkeit des nachfolgend adaptierten Klassif ikati- 

30 onssystems niederschlagt . Spiegelt die jeweilige Stichprobe 
die betrachtete Leseaufgabe hinreichend gut wider, wird sich 
auch in der Kann- Phase eine gute Leseleistung fur das breite 
Spektrum der vorkommenden Muster einstellen. Ist die Stich- 
probe zu eng selektiert, hat man in der Kannphase auch nur 

3 5 fur dieses eingeschrankte Spektrum gute Performance zu erwar- 
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ten und erreicht nicht die erwartete Performance fur den Rest 
der auftretenden Muster. Dieser Aspekt der hinreichend umfas- 
senden Stichprobe korreliert unmittelbar mit dem Begriff der 
Reprasentativitat einer Stichprobe aus der mathematischen 
Statistik. 

Urn eine qualitativ hochwertige und representative Stichprobe 
zu erhalten, sind eine Reihe von Kriterien zu erfiillen. 
Grundvoraussetzung fur eine gute Lern- und Test stichprobe 
ist, dass alle zu lernenden Formen einer Musterklasse in aus- 
reichendem MaSe vorhanden sind. Schon das ist oft eine gar 
nicht so leicht zu erfullende Bedingung, da ublicherweise 
Aufgabenstellungen aus einer speziellen Anwendung kommen, die 
nur einen Ausschnitt einer Gesamterkennungsauf gabe darstellt. 
So haben z.B. im Bereich der Schrif terkennung im postalischen 
Bereich zum Zeitpunkt einer Klassif ikatoradaption gewisse 
Fonts (Schrif tarten) , Drucktechniken oder Druckgerate den 
Vorzug, die nur einen limit ierten Ausschnitt des gesamten 
Spektrums darstellen. Im Verlaufe der Sendungsauf schrif tenle- 
serlebensdauer schieben sich vielleicht andere Fonts und 
Drucktechniken in den Vordergrund und mussen trotzdem noch 
hinreichend gut erkannt werden, Dieser Aspekt variiert auch 
oft beim Einsatz solcher Techniken in verschiedenen nationa- 
len Bereichen. In einem hoch-technis ierten Land kommen ganz 
andere Fonts und Druck-/Schreibgerate zum Einsatz, als in ei- 
nem Schwellenland . Dies erfordert eine liberaus vorausschauen- 
de Zusammenstellung der Stichprobe und moglichst breite Basis 
fiir die Mustergenerierung . 

Als nachstes muss die einem Muster zugeordnete wahre Bedeu- 
tung stimmen. Bekommt namlich ein adapt ives System zu haufig 
die falsche Klassenzugehorigkeit zu einem Muster zugeordnet/ 
dann wird es auch in der Kannphase vermehrt die falsche Ent- 
scheidung treffen, wenn entsprechende Muster vorgefuhrt wer- 
den. Das System ist eben adapt iv und lernt auch Fehlerhaf tes. 
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wenn man es ihm anbietet. Je kleiner die Fehlkennungen in der 
Lern- oder Teststichprobe sind, desto besser ist auch die 
Leistungsf ahigkeit des entwickelten Klassif ikationssystems . 

Ein weiterer Aspekt hangt direkt mit der Generierung der 
Merkmalssatze zusammen, Ublicherweise werden die Merkmalssat- 
ze mit den in der vorhandenen Lesesoftware enthaltenen Erken- 
nungsalgorithmen generiert, da die Umfange meist nicht imer- 
heblich sind (z.B. mehrere tausend Exemplare pro Zeichen bei 
der Zeichenerkennung) , und die Merkmale moglichst realitats- 
nah sein sollen. Die vorhandenen Algorithmen arbeiten aber 
durchweg nicht fehlerfrei. So kommt es z.B. bei der Zeichen- 
segmentierung zu fehlerhaften Segmenten, die statt eines Zei- 
chens zum einen nur Zeichenbruchstucke oder zum anderen mehr 
als ein Zeichen enthalten oder auch manchmal nur Storinforma- 
tion, die fur eine Adaption allesamt nicht nur irrelevant, 
sondern massiv storend sind, da sie das Klassif ikationssystem 
regelrecht in die Irre fuhrten. 

Innerhalb eines Mustererkennungsprozesses laufen aufierdem ei- 
ne ganze Reihe von Verarbeitungsschritten ab, die nicht 
sichtbar determiniert und erfassbar sind, sondern summarisch 
statistisch behandelt werden mussen. Dazu zahlen z.B. Quant i - 
sierungef f ekte durch Binarisierungen, Kontrastvariationen 
durch verschiedenf arbige Papieruntergrunde, Rundungsef f ekte 
durch unterschiedliche Auflosungs- und Rasterisierungsalgo- 
rithmen bei Scan- und Druckgeraten, sowie Scan- und Druckqua- 
litatsschwankungen durch Alter und unterschiedlichen War- 
tungszustand der Gerate. 

Befindet sich der automatische Leser (OCR) im Lesebe- 
trieb/Kannphase, so konnen sich die Eigenschaf ten der gelese- 
nen Sendungen andern, so dass der automatische Leser nicht 
mehr optimal arbeitet. Damit er den geanderten Bedingungen 
wieder angepasst werden kann, ist eine neue oder aktualisier- 
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te Stichprobe notwendig, mit welcher der Leser optimiert 
wird, d.h. es muss wieder aufwandig eine Stichprobe wie be- 
schrieben zusammengestellt werden. 

Der Erfindung liegt die Aufgabe zugriinde, ein Verfahren zum 
Erzeugen und/oder Aktualisieren von Lern- und Teststichproben 
fur die Optimierung von automat ischen Lesern fvir Sendungsauf- 
schriften mit adaptiven Klassif ikatoren zu schaffen, mit dem 
wahrend des Lesebetriebes automat isch Lern- und/oder Test- 
stichproben erzeugt und/oder aktualisiert werden . 

Erf indungsgemafi wird die Aufgabe durch die Merkmale des An- 
spruches 1 gelost . 

Durch die Schritte 

- Lesen von drahtlos lesbaren und beschreibbaren, auf oder in 
der Sendung befindlichen Speichereinheiten zusatzlich zum 
automat ischen opt ischen Lesen, 

- wenn aus einer Speichereinheit Zieladressangaben gelesen 
und identif iziert wurden, abspeichern dieser Daten als 
Zieladresssolldaten zusammen mit dem auf genommenen Abbild 
der Sendungsoberf lache in einer Stichprobendatenbank, 

ist es moglich, ohne erheblichen manuellen Auf wand Lern- 
und Teststichproben zur Optimierung automatischer optischer 
Leser (OCR) zu erstellen. 

Vorteilhafte Ausgestaltungen der Erfindung sind in den Unter- 
anspruchen dargestellt. 

So ist es vorteilhaft, ein Signal zur Optimierung des automa- 
tischen opt ischen Lesers zu erzeugen, wenn eine bestimmte An- 
zahl von automatisch erzeugten Eintragen in der Stichproben- 
datenbank erreicht ist \and/oder eine festgelegte Zeitspanne 
seit der vorherigen Optimierung uberschritten wurde. 
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Vorteilhaft ist es auch, die Speichereinheiten als RFID-Tag 
auszufuhreri; d.h. sie werden mittels Funkwellen beschrieben 
und gelesen. 

Da es vorteilhaft ist, wenn die Solldaten in der Stichprobe 
in Textform vorliegen, kann bei gespeicherten Adressdaten in 
kodierter Form automat isch der Adresstext aus einem Adress- 
worterbuch mit alien Varianten ermittelt und in die Stichpro- 
bendatenbank eingetragen werden. 

AnschlieSend wird die Erfindung in einem Aus fiihrungsbei spiel 
anhand der Zeichnung erlautert. 

Dabei zeigt 

FIG 1 ein Flussbild des Verf ahrensablauf es . 

Der Einsatz von RFID-Tags, insbesondere von passiven RFID- 
Tags, zum Kennzeichnen von Sendungen ist schon seit langerem 
bekannter Stand der Technik (US 3 750 167, US 6 557 758 Bl) . 
Sie dienen dazu, die Sendungen beruhrungslos mittels Radio- 
wellen zu identif izieren. Zusatzlich zu den Identif ikations- 
daten konnen die RFID-Tags auch weitere Daten, wie z.B. Ziel- 
adressangaben beinhalten. 

Wenn die Sendungen in das Verteilsystem (z.B. Postdienst) ge- 
langen, werden jeweils die die Zieladressen aufweisende Sen- 
dungsoberf lache mittels einer Kameraanordnung aufgenommen und 
abgespeichert , um in einen OCR-Leser die Zieladresse zu le- 
sen. Gleichzeitig erfolgt das drahtlose Lesen des RFID-Tags, 
der sich in oder auf der betreffenden Sendung befindet 1. 
Dann wird ermittelt, ob der RFID-Tag Zieladressangaben ent- 
halt 2. Wurden aus dem RFID-Tag keine Zieladressangaben iden- 
tif iziert und gelesen, so erfolgt die normale Weiterverarbei- 
tung der Sendung 3, d.h. OCR-Lesen, Sortieren nach Sortier- 
planen usw. Enthalt der RFID-Tag Adressangaben, wird automa- 
tisch f estgestellt , ob sie in Textform vorliegen oder 
nicht 4. Wenn ja, werden die Bilddaten dieser Sendung als 
Ist-Daten zusammen mit den zugehorigen Zieladressangaben in 
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Textform als Soll-Daten in einer Stichprobendatenbank gespei- 
chert 6, so dass diese Datenbank stets aktuelle Stichproben 
enthalt, Wurden die Zieladressangaben in kodierter Form im 
RFID-Tag gespeichert , so erfolgt mit Hilfe einer Adressdaten- 
bank die Umwandlung in die Textform 5, die dann in die Stich- 
probendatenbank eingegeben wird. Dabei werden alle Varianten, 
die unter der Kodeangabe im Adressworterbuch gespeichert 
sind, in die Stichprobendatenbank ubernommen. 1st eine be- 
stimmte Anzahl von neuen Eintragen oder eine bestimmte Zeit- 
spanne seit der letzten Optimierung uberschritten, wird ein 
Signal zur erneuten Optimierung des OCR-Lesers abgegeben 7, 
Auf diese Art und Weise wird also die Lern- und Teststichpro- 
be fiir die OCR-Leser automatisch und ohne manuellen Aufwand 
im Lesebetrieb aktuell gehalten. 
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Patent anspriiche 

1. Verfahren zum Erzeugen und/oder Aktualisieren von Lern- 
und/oder Teststichproben fiir die Optimierung von automa- 
tischen optischen Lesern fiir Sendungsauf schrif ten mit 
adaptiven Klassif ikatoren, gekennzeichnet 

d u r c h die Schritte: 

- Lesen von drahtlos lesbaren und beschreibbaren, auf 
Oder in der Sendung befindlichen Speichereinheiten zu- 
satzlich zum automatischen optischen Lesen, 

- wenn aus einer Speichereinheit Zieladressangaben iden- 
tifiziert und gelesen wurden, abspeichern dieser Daten 
als Zieladresssolldaten zusammen mit dem auf genommenen 
Abbild der Sendungsoberf lache in einer Stichprobenda- 
tenbank . 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet / dass ein Signal zur Optimierung des au- 
tomatischen optischen Lesers erzeugt wird, wenn eine be- 
st immte Anzahl von automat isch erzeugt en Eintragen in der 
Stichprobendatenbank erreicht ist und/oder eine festge- 
legte Zeitspanne seit der vorherigen Optimiervmg uber- 
schritten wurde . • 

3. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet , dass die Speichereinheiten als RFID- 
Tag/ Transponder ausgefiihrt sind, 

4 . Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet , dass bei Vorliegen der Adressdaten in 
kodierter Form automatisch der Adresstext aus einem Ad- 
re ssworterbuch mit alien Varianten ermittelt wird und in 
die Stichprobendatenbank eingetragen wird. 
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Zusammenf assung 

Verfahren zum Erzeugen xmd/oder Aktualisieren von Lern- 
und/oder Teststichproben 

Die Erf indxing betrif ft ein Verfahren zum Erzeugen und/oder 
Aktualisieren von Lern- und/oder Teststichproben fur die Op- 
timierung von automat ischen optischen Lesern fur Sendungsauf- 
schriften mit adapt iven Klassif ikatoren mit den Schritten: 

- Lesen von drahtlos lesbaren und beschreibbaren, auf 

Oder in der Sendung befindlichen Speichereinheiten zusatz- 
lich zum automatischen optischen Lesen, 

- wenn aus einer Speichereinheit Zieladressangaben identifi- 
ziert und gelesen wurden, abspeichern dieser Daten als 
Zieladresssolldaten zusammen mit dem auf genommenen Abbild 
der Sendungsoberf lache in einer Stichprobendatenbank. 
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